Loans Exploration by Yin enxi

本报告探讨了一个包含约110000项每月贷款支付和属性的数据集。 原数据集共81个变量,我将只研究其中的10个变量,分别为:LoanStatus(贷款状态),EmploymentStatus(就业状态),IncomeVerifiable(收入可证实),BorrowerAPR(贷款利率),EstimatedReturn(预计回报),AvailableBankcardCredit(可用银行信贷),MonthlyLoanPayment(每月贷款支付),StatedMonthlyIncome(固定月收入),LoanNumber(贷款数量),LoanOriginalAmount(最初贷款数目).提取这10个变量作为新的数据集loan。 其中主要探讨每月贷款支付(MonthlyLoanPayment)和其他变量之间的关系

单变量绘图选择

## [1] 113937     10
## 'data.frame':    113937 obs. of  10 variables:
##  $ LoanStatus             : Factor w/ 12 levels "Cancelled","Chargedoff",..: 3 4 3 4 4 4 4 4 4 4 ...
##  $ EmploymentStatus       : Factor w/ 9 levels "","Employed",..: 9 2 4 2 2 2 2 2 2 2 ...
##  $ IncomeVerifiable       : Factor w/ 2 levels "False","True": 2 2 2 2 2 2 2 2 2 2 ...
##  $ BorrowerAPR            : num  0.165 0.12 0.283 0.125 0.246 ...
##  $ EstimatedReturn        : num  NA 0.0547 NA 0.06 0.0907 ...
##  $ AvailableBankcardCredit: num  1500 10266 NA 30754 695 ...
##  $ MonthlyLoanPayment     : num  330 319 123 321 564 ...
##  $ StatedMonthlyIncome    : num  3083 6125 2083 2875 9583 ...
##  $ LoanNumber             : int  19141 134815 6466 77296 102670 123257 88353 90051 121268 121268 ...
##  $ LoanOriginalAmount     : int  9425 10000 3001 10000 15000 15000 3000 10000 10000 10000 ...
##                  LoanStatus         EmploymentStatus IncomeVerifiable
##  Current              :56576   Employed     :67322   False:  8669    
##  Completed            :38074   Full-time    :26355   True :105268    
##  Chargedoff           :11992   Self-employed: 6134                   
##  Defaulted            : 5018   Not available: 5347                   
##  Past Due (1-15 days) :  806   Other        : 3806                   
##  Past Due (31-60 days):  363                : 2255                   
##  (Other)              : 1108   (Other)      : 2718                   
##   BorrowerAPR      EstimatedReturn  AvailableBankcardCredit
##  Min.   :0.00653   Min.   :-0.183   Min.   :     0         
##  1st Qu.:0.15629   1st Qu.: 0.074   1st Qu.:   880         
##  Median :0.20976   Median : 0.092   Median :  4100         
##  Mean   :0.21883   Mean   : 0.096   Mean   : 11210         
##  3rd Qu.:0.28381   3rd Qu.: 0.117   3rd Qu.: 13180         
##  Max.   :0.51229   Max.   : 0.284   Max.   :646285         
##  NA's   :25        NA's   :29084    NA's   :7544           
##  MonthlyLoanPayment StatedMonthlyIncome   LoanNumber    
##  Min.   :   0.0     Min.   :      0     Min.   :     1  
##  1st Qu.: 131.6     1st Qu.:   3200     1st Qu.: 37332  
##  Median : 217.7     Median :   4667     Median : 68599  
##  Mean   : 272.5     Mean   :   5608     Mean   : 69444  
##  3rd Qu.: 371.6     3rd Qu.:   6825     3rd Qu.:101901  
##  Max.   :2251.5     Max.   :1750003     Max.   :136486  
##                                                         
##  LoanOriginalAmount
##  Min.   : 1000     
##  1st Qu.: 4000     
##  Median : 6500     
##  Mean   : 8337     
##  3rd Qu.:12000     
##  Max.   :35000     
## 

数据集由10个变量组成,有113937个观测值。

大多数人的月贷款支付额在500以下。我想知道图形在贷款状态、雇佣状态以及是否收入可查询这三个分类变量中是什么样子的。

大部分人的贷款状态都是完整的或者现在的。大部分人的雇佣状态都是被雇佣的,其次是全职。绝大多数的人的收入都是可证实的,只有很少一部分人不可证实。

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
## 0.00653 0.15629 0.20976 0.21883 0.28381 0.51229      25

贷款利率是0.0653,最大的APR是0.51229。大多数贷款利率都集中在0.1到0.3之间,分布比较均匀的,在0.36左右出现峰值

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0000  0.1340  0.1840  0.1928  0.2500  0.4975

预计回报集中在0.05到0.15之间。

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
##       0     880    4100   11210   13180  646285    7544

可用银行信贷存在很多0值,使得图形扭曲难以观测,对数化x轴后呈现正态分布

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##       0    3200    4667    5608    6825 1750003

月固定收入存在很多0值,最大值远大于平均数和中位数,可看成异常值,大量零值的存在使得图形中收入在六位数以上的显示不出来,对x轴对数化后呈现正态分布

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##       1   37332   68599   69444  101901  136486

贷款数量分布比较均匀,中位数和平均数差别不大,不存在0值。

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    1000    4000    6500    8337   12000   35000

最初贷款数目呈偏斜分布,但异常值不多,大多数人的贷款数在10000以下

单变量分析

你的数据集结构是什么?

数据集中有113937个观测值,具有10个特征(贷款状态,就业状态,收入可证实,贷款利率,预计回报率,可用银行信贷,固定月收入,每月贷款支付,贷款数量,最初贷款数目)。变量贷款状态,就业状态,收入可证实是具有以下类别的有序因子变量。 贷款状态:Completed、Current、Chargedoff、Cancelled、Defaulted、FinalPaymentInProgress、Past Due (1-15 days)、Past Due (16-30 days)、Past Due (31-60 days)、Past Due (61-90 days)、Past Due (91-120 days)、Past Due (>120 days) 就业状态:Employed、Self-employed、Part-time、Full-time、Not available、Not employed、Retired、Other 收入可证实:True、False

你的数据集内感兴趣的主要特性有哪些?

数据集中的主要特征是最初贷款数目和每月贷款支付。我想确定哪些因素最适合预测每个人的月贷款支付。我认为最初贷款数目和其他变量的一些组合可以用来建立一个每月贷款支付预测模型。

你认为数据集内哪些其他特征可以帮助你探索兴趣特点?

贷款状态,就业状态,收入可证实,借款利率,预计回报率,可用银行信贷,固定月收入,贷款数量,最初贷款数目可能有助于预测每月贷款额。我认为固定月收入和贷款状态对于预测每月贷款支付是很重要的。

根据数据集内已有变量,你是否创建了任何新变量?

没有

在已经探究的特性中,是否存在任何异常分布?你是否对数据进行一些操作,如清洁、调整或改变数据的形式?如果是,你为什么会这样做?

在研究单个变量可用银行信贷(AvailableBankcardCredit)和月固定收入(StatedMonthlyIncome)时,由于存在大量的0值,并且有异常值,比如有人的收入是175万,使得图形严重扭曲,看不到一些中间值,我对两个图的x轴进行对数化,最后都呈现正态分布,便于研究。

双变量绘图选择

从loan数据集中取出10000行作为样本以便后面查看两两变量间的的相关系数

从数据的一个子集得到的散点矩阵中可以看出每月贷款支付(MonthlyLoanPayment)和最初贷款数目(LoanOriginalAmount)有很强的相关性,相关系数为0.933。固定月收入(StatedMonthlyIncome)和贷款数量(LoanNumber)与每月贷款支付(MonthlyLoanPayment)适度相关。我想看一下通过散点图展示的每月贷款额和其他一些变量比如最初贷款数目、固定月收入、贷款数量等之间的相互关系 。

随着最初贷款数目的增加,每月贷款支付也随之增加。可以看到有垂直带,许多人在不同的月贷款额点上具有相同的最初贷款数目。二者关系似乎不是完全线性的。蓝色线为两变量的平滑曲线。

## 
## Call:
## lm(formula = MonthlyLoanPayment ~ LoanOriginalAmount, data = loan)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -751.60  -23.45   -1.04   25.94 1499.91 
## 
## Coefficients:
##                     Estimate Std. Error t value Pr(>|t|)    
## (Intercept)        3.275e+01  3.452e-01    94.9   <2e-16 ***
## LoanOriginalAmount 2.875e-02  3.313e-05   867.8   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 69.85 on 113935 degrees of freedom
## Multiple R-squared:  0.8686, Adjusted R-squared:  0.8686 
## F-statistic: 7.531e+05 on 1 and 113935 DF,  p-value: < 2.2e-16

根据R^2值,最初贷款数目可以解释约87%的每月贷款支付变动。

转换了x和y轴之后(x取对数y取立方根)二者似乎相关性增强了。

分析每月贷款支付和固定月收入时,图形出现重叠,难以判断每个区域有多少点,并且有异常值,我将放大图形的左侧,

设置0.02的透明度透明度之后图形清晰了很多,大多数固定月收入在0到20000之间。但存在很多人即使月收入为0,也有每月的贷款支付。

分布很杂乱,设置0.05的透明度,看起来似乎贷款数量和每月贷款支付的相关性不大。即使有人贷款数量不为0,每月也有贷款支付。

依旧是有很多重叠,设置一下透明度。

月贷款支付和贷款年利率似乎是负相关的。

每月贷款支付和预计回报的分布比较杂乱,看不出什么趋势来。

可用银行信贷似乎和每月贷款支付的关系也不太明确。下面我要看一下根据贷款状态、就业状态、收入可查询分类的每月贷款支付分布。

我用叠加的形式将贷款状态显示在每月贷款支付中,可以看到状态为“现在”的人数最多。

我将调整y轴,删掉异常值部分,用coord_cartesian层,并给每个箱线图添加一个每月贷款支付均值点

## loan$LoanStatus: Cancelled
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   32.62   39.10   39.10   61.54   85.38  111.49 
## -------------------------------------------------------- 
## loan$LoanStatus: Chargedoff
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   29.97  112.24  173.71  235.36  308.21 1552.76 
## -------------------------------------------------------- 
## loan$LoanStatus: Completed
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    0.00   94.15  171.10  218.78  297.00 2251.51 
## -------------------------------------------------------- 
## loan$LoanStatus: Current
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   41.22  166.73  289.54  319.73  417.27 1781.28 
## -------------------------------------------------------- 
## loan$LoanStatus: Defaulted
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    0.00   99.92  167.62  233.49  303.10 1102.78 
## -------------------------------------------------------- 
## loan$LoanStatus: FinalPaymentInProgress
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     0.0   143.1   217.7   298.5   404.5  2163.6 
## -------------------------------------------------------- 
## loan$LoanStatus: Past Due (>120 days)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   86.04  159.24  268.02  281.46  342.53  577.54 
## -------------------------------------------------------- 
## loan$LoanStatus: Past Due (1-15 days)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   46.16  163.56  238.24  285.17  382.08 1384.64 
## -------------------------------------------------------- 
## loan$LoanStatus: Past Due (16-30 days)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   63.02  161.99  201.43  276.95  383.35 1278.19 
## -------------------------------------------------------- 
## loan$LoanStatus: Past Due (31-60 days)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   53.94  161.14  220.46  281.58  374.16 1237.25 
## -------------------------------------------------------- 
## loan$LoanStatus: Past Due (61-90 days)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   53.26  155.80  201.25  258.04  350.61  903.81 
## -------------------------------------------------------- 
## loan$LoanStatus: Past Due (91-120 days)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   61.78  160.37  205.25  263.44  360.50  883.75

可以看到贷款状态为“现在”的每月贷款支付额是最高的,状态为“取消”的最低。

我用叠加的形式将就业状态显示在每月贷款支付中,可以看到状态为“被雇佣的”的人数最多。

## loan$EmploymentStatus: 
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    0.00   74.33  116.08  158.70  189.62 1040.85 
## -------------------------------------------------------- 
## loan$EmploymentStatus: Employed
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     0.0   166.3   275.8   310.4   404.5  2251.5 
## -------------------------------------------------------- 
## loan$EmploymentStatus: Full-time
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    0.00   90.25  162.51  216.58  283.24 1563.21 
## -------------------------------------------------------- 
## loan$EmploymentStatus: Not available
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    0.00   77.42  125.64  190.52  229.18 1047.64 
## -------------------------------------------------------- 
## loan$EmploymentStatus: Not employed
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    0.00   90.08  168.89  182.91  217.74 1085.67 
## -------------------------------------------------------- 
## loan$EmploymentStatus: Other
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     0.0   131.7   172.8   232.2   322.0  1035.2 
## -------------------------------------------------------- 
## loan$EmploymentStatus: Part-time
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    0.00   55.46  105.83  140.80  178.99  984.24 
## -------------------------------------------------------- 
## loan$EmploymentStatus: Retired
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    0.00   73.64  130.66  168.37  217.12 1046.01 
## -------------------------------------------------------- 
## loan$EmploymentStatus: Self-employed
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     0.0   155.4   238.1   283.3   378.1  1379.7

就业状态为被雇佣的和自我雇佣的人每月的贷款支付额最高,兼职的最少。似乎有稳定工作的人月贷款支付要比没有工作的人多,两者是有关系的。

我用“重叠”的方式把收入是否可查询显示在每月贷款支付中,可以看到收入可证实的人要比收入不可证实的人多得多。

## loan$IncomeVerifiable: False
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     0.0   135.5   192.9   252.1   348.4  1552.8 
## -------------------------------------------------------- 
## loan$IncomeVerifiable: True
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     0.0   131.1   219.9   274.2   372.7  2251.5

收入可证实的人要比收入不可证实的人每月贷款支付均值和中位数要高,而这也是有一定关系的。

双变量分析

探讨你在这部分探究中观察到的一些关系。这些感兴趣的特性与数据集内其他特性有什么区别?

最初贷款数目和每月的贷款支付有一定的相关性,随着最初贷款数目的增加,月贷款支付的数额也在增加。 月贷款支付随着借款利率的升高而增加的趋势虽然没有最初贷款数目那么明显,但也是能看出来二者具有相关性的。 贷款状态为“现在”的每月贷款支付额是最高的,状态为“取消”的最低。 有稳定工作的人(比如就业状态为“被雇佣的”)月贷款支付要比没有工作或工作不稳定(比如就业状态为“兼职”)的人多。

你是否观察到主要特性与其他特性之间的有趣关系?

预计回报和贷款利率的相关系数为0.796,是比较高的。最初贷款数目和贷款数量也有一定的相关性。

你发现最强的关系是什么?

每月的贷款支付随着最初贷款数目的增加而增加,二者相关性最强。

多变量绘图选择

我想先看一下在不同的就业状态,贷款状态里,每月贷款支付额占月固定收入的百分比是怎么分布的。

从上图可以看就业状态为“未被雇佣”的人每月的贷款支付占月固定收入百分比最高,而且Q3比其他就业状态高的多得多。或许因为这些人几乎没有月固定收入,但是每月也有贷款,所以百分比大于1了。

可以看到贷款状态为“Past Due (>120 days)”的人百分比最高,状态为“cancelled”的人百分比最低。

按照就业状态查看每月贷款支付占最初贷款数目的百分比,“未被雇佣”最高,和每月贷款支付占固定月收入的百分比类似。

用就业状态划分每月贷款支付和固定月收入的分布,可以看到在固定月收入一定时,就业状态为“被雇佣”和“自我雇佣”以及“全职”的人月贷款支付比其他就业状态的人多。

就业状态为“被雇佣”的人大多数的贷款状态为“现在的”。

一个有趣的关系是收入不可证实的分类里“自我雇佣”就业状态的人占了大多数,“被雇佣”和“全职”状态很少。而在收入可证实的分类里恰好相反,大多数都是“被雇佣”和“全职”,而“自我雇佣”状态很少。 接下来我把横坐标换成最初贷款数目看看具体的分布情况。

可以看到就业状态和贷款状态之间似乎也有一定的关系。

建立预测每月贷款支付的线性模型。

## 
## Calls:
## m1: lm(formula = I(log(MonthlyLoanPayment + 1)) ~ I(LoanOriginalAmount^(1/3)), 
##     data = loan)
## m2: lm(formula = I(log(MonthlyLoanPayment + 1)) ~ I(LoanOriginalAmount^(1/3)) + 
##     LoanOriginalAmount, data = loan)
## m3: lm(formula = I(log(MonthlyLoanPayment + 1)) ~ I(LoanOriginalAmount^(1/3)) + 
##     LoanOriginalAmount + StatedMonthlyIncome, data = loan)
## m4: lm(formula = I(log(MonthlyLoanPayment + 1)) ~ I(LoanOriginalAmount^(1/3)) + 
##     LoanOriginalAmount + StatedMonthlyIncome + EmploymentStatus, 
##     data = loan)
## m5: lm(formula = I(log(MonthlyLoanPayment + 1)) ~ I(LoanOriginalAmount^(1/3)) + 
##     LoanOriginalAmount + StatedMonthlyIncome + EmploymentStatus + 
##     LoanStatus, data = loan)
## 
## ===========================================================================================================================
##                                                      m1             m2             m3             m4             m5        
## ---------------------------------------------------------------------------------------------------------------------------
##   (Intercept)                                        2.514***       1.281***       1.278***       1.278***       1.290***  
##                                                     (0.006)        (0.014)        (0.014)        (0.017)        (0.209)    
##   I(LoanOriginalAmount^(1/3))                        0.148***       0.249***       0.249***       0.245***       0.246***  
##                                                     (0.000)        (0.001)        (0.001)        (0.001)        (0.001)    
##   LoanOriginalAmount                                               -0.000***      -0.000***      -0.000***      -0.000***  
##                                                                    (0.000)        (0.000)        (0.000)        (0.000)    
##   StatedMonthlyIncome                                                              0.000***       0.000***       0.000***  
##                                                                                   (0.000)        (0.000)        (0.000)    
##   EmploymentStatus: Employed                                                                      0.060***       0.089***  
##                                                                                                  (0.010)        (0.011)    
##   EmploymentStatus: Full-time                                                                     0.027*         0.019     
##                                                                                                  (0.010)        (0.010)    
##   EmploymentStatus: Not available                                                                 0.030*         0.019     
##                                                                                                  (0.012)        (0.012)    
##   EmploymentStatus: Not employed                                                                  0.127***       0.123***  
##                                                                                                  (0.019)        (0.019)    
##   EmploymentStatus: Other                                                                         0.109***       0.137***  
##                                                                                                  (0.013)        (0.013)    
##   EmploymentStatus: Part-time                                                                    -0.072***      -0.074***  
##                                                                                                  (0.017)        (0.017)    
##   EmploymentStatus: Retired                                                                       0.008         -0.000     
##                                                                                                  (0.019)        (0.019)    
##   EmploymentStatus: Self-employed                                                                 0.100***       0.110***  
##                                                                                                  (0.012)        (0.012)    
##   LoanStatus: Chargedoff/Cancelled                                                                               0.101     
##                                                                                                                 (0.209)    
##   LoanStatus: Completed/Cancelled                                                                               -0.055     
##                                                                                                                 (0.209)    
##   LoanStatus: Current/Cancelled                                                                                 -0.077     
##                                                                                                                 (0.209)    
##   LoanStatus: Defaulted/Cancelled                                                                               -0.026     
##                                                                                                                 (0.209)    
##   LoanStatus: FinalPaymentInProgress/Cancelled                                                                  -0.067     
##                                                                                                                 (0.212)    
##   LoanStatus: Past Due (>120 days)/Cancelled                                                                    -0.017     
##                                                                                                                 (0.240)    
##   LoanStatus: Past Due (1-15 days)/Cancelled                                                                    -0.001     
##                                                                                                                 (0.210)    
##   LoanStatus: Past Due (16-30 days)/Cancelled                                                                    0.002     
##                                                                                                                 (0.211)    
##   LoanStatus: Past Due (31-60 days)/Cancelled                                                                   -0.000     
##                                                                                                                 (0.211)    
##   LoanStatus: Past Due (61-90 days)/Cancelled                                                                   -0.001     
##                                                                                                                 (0.211)    
##   LoanStatus: Past Due (91-120 days)/Cancelled                                                                  -0.010     
##                                                                                                                 (0.211)    
## ---------------------------------------------------------------------------------------------------------------------------
##   R-squared                                          0.688          0.712          0.712          0.713          0.716     
##   adj. R-squared                                     0.688          0.712          0.712          0.713          0.716     
##   sigma                                              0.490          0.471          0.471          0.470          0.468     
##   F                                             251764.328     140884.567      93936.644      25724.392      13065.083     
##   p                                                  0.000          0.000          0.000          0.000          0.000     
##   Log-likelihood                                -80367.000     -75874.375     -75868.146     -75698.784     -75057.747     
##   Deviance                                       27343.957      25270.407      25267.644      25192.637      24910.746     
##   AIC                                           160739.999     151756.750     151746.291     151423.568     150163.494     
##   BIC                                           160768.929     151795.323     151794.508     151548.932     150394.935     
##   N                                             113937         113937         113937         113937         113937         
## ===========================================================================================================================

模型公式为:log10(MonthlyLoanPayment) = 1.29 + 0.246*LoanOriginalAmount^(1/3)+ …… 这个线性模型中的变量可以解释每月贷款支付变动的71.6%,即使在单独的每月贷款支付对数化和最初贷款数目立方根的情况下,也可以预测68.8%。

多变量分析

探讨你在这部分探究中观察到的一些关系。通过观察感兴趣的特性,是否存在相互促进的特性?

月固定收入和就业状态这两个变量之间存在着一定的相互促进性,因为就业状态为“被雇佣”、“自我雇佣”、“全职”的这些人群基本上可以肯定他们有固定的月收入。而“兼职”或者“其他”等这些人不一定有固定的月收入,是根据当月的实际就业情况决定的。所以二者之间有关系。 在研究每月贷款支付和固定月收入根据收入是否可证实切面时,收入不可证实的分类里“自我雇佣”就业状态的人占了大多数,“被雇佣”和“全职”状态很少。而在收入可证实的分类里恰好相反,大多数都是“被雇佣”和“全职”,“自我雇佣”状态很少。

这些特性之间是否存在有趣或惊人的联系呢?

每月贷款支付和最初贷款数目的相关性最大,这很好理解,贷款的数目越多,均摊到每个月的还款额(即每月贷款支付)也就越高。而通过就业状态分类,状态为“被雇佣”、“全职”等的人比没被雇佣或者“兼职”等以及其他就业状态的人月贷款支付也要高。

选项:你是否创建过数据集的任何模型?讨论你模型的优缺点。

是的,我创建了一个线性模型。是通过每月贷款支付的对数和最初贷款数目的立方根建立的。线性模型中的变量占每月贷款额度变化的71.6%。在模型中添加最初贷款数目这一变量稍微将R^2值提高了3,这是基于每月贷款支付的对数对最初贷款数目立方根的可视化而预期的。就业状态和贷款状态将模型改进到更大程度。


定稿图与总结

绘图一

描述一

在每个不同的贷款支付金额水平上,“被雇佣”人群的数量最多。或许是因为他们的资金来源比较稳定,可以承担的起每月的固定贷款支出。而且资金来源不固定的人群,比如“兼职”等,每月的固定贷款支出比较少。

绘图二

描述二

从可以看就业状态为“被雇佣”的每月的贷款支付占最初贷款数目的百分比最低,“未被雇佣”的人最高。或许因为这些人几乎没有固定的月收入,在最一开始的贷款数目比较小,后来由于借款利率银行利率等因素,每月的贷款支付金额跟那些被雇佣的人齐平,自然百分比就高了。

绘图三

描述三

该图表明,可以构建一个线性模型来预测变量每月贷款支付的数额,用log10(每月贷款支付)作为结果变量,最初贷款数目的立方根作为预测变量。在最初贷款数目不变时,就业状态为“被雇佣”、“自我雇佣”和“全职”等有固定收入来源的人几乎总是比那些“兼职”、“未被雇佣”等没太有固定收入来源的人每月的贷款支付要多。


反思

一开始拿到这个数据集的时候80多个变量让我感觉很迷茫,从中选出10个我认为可分析并且互相之间有联系的变量就花了挺长的时间。后来我决定把每月贷款支付当作结果变量,探索究竟那些因素会影响其变动,创建了一个我选出的十个变量的组成的子集loan。我逐一了解分析数据集中的各个变量,然后探索有趣的问题和线索,结合图形进行观察。最后,我通过每月贷款支付和其他相关变量,创建了一个预测每月贷款支付金额的线性模型。建模的时候我遇到一个比较麻烦的问题:0值的处理。由于我的模型是对y变量也就是MonthlyLoanPayment取了对数,导致y存在负无穷,把变量中的每个值+1之后就解决了。 和每月贷款支付相关性最强的变量是最初贷款数目,一个人的最初贷款数目越多,均摊到每个月的贷款还款额就越高,这很好理解。有一点让我很惊讶的是贷款利率和每月贷款支付的关系是负相关的,后来我想明白或许是因为贷款利率的增加,导致一些人减少了贷款的总额,所以每月的贷款支付也减少了。对于线性模型,将每月贷款支付取对数,最初贷款账户取立方根得到的线性模型能解释数据集每月贷款支付的71.6%。 该模型有的变量有不少0值和NA,为了进一步调查这些数据,我将研究如何将均值替换这些NA或者用更好的办法处理NA,另一方面,或许可以把所有0值提取出来,单独建立模型,分析和原来模型的联系和区别,并学会如何更好的进行回归分析,如残差分析等。以此来增加模型的准确度。